Enqueued related words: Exploding Gradients

Gradient Clipping

Definition / 定义

梯度裁剪：在训练神经网络时，当梯度（参数更新的“方向与幅度”）过大，会导致训练不稳定甚至数值发散。梯度裁剪通过把梯度的大小限制在某个阈值内（常见做法是按范数缩放或逐元素截断），来提高训练稳定性，尤其常用于循环神经网络（RNN）等容易出现梯度爆炸的模型中。

Pronunciation / 发音

/ˈɡreɪdiənt ˈklɪpɪŋ/

Examples / 例句

We used gradient clipping to stop the loss from blowing up.
我们使用梯度裁剪来防止损失函数突然发散。

During training, gradient clipping (by global norm) stabilized the recurrent model and allowed a larger learning rate without divergence.
在训练过程中，通过（全局范数）梯度裁剪稳定了循环模型，并使得在不发散的情况下可以使用更大的学习率。

Etymology / 词源

gradient 源自拉丁语 gradiens（“行走、前进”），在数学与机器学习里指函数变化的“斜率/梯度”。clipping 来自动词 clip（“剪下、截短”），在信号处理与数值计算中常指把数值“截到一定范围内”。合起来 gradient clipping 直译为“把梯度剪到不超过某个界限”，强调对过大更新量的限制。

Related Words / 相关词

Literary Works / 文学作品

Deep Learning（Ian Goodfellow, Yoshua Bengio, Aaron Courville）——在优化与训练技巧相关章节讨论梯度问题与稳定训练方法，常提及梯度裁剪。
“On the difficulty of training recurrent neural networks”（Razvan Pascanu, Tomas Mikolov, Yoshua Bengio, 2013）——研究RNN训练困难，讨论梯度爆炸并提出/使用梯度裁剪等稳定策略。
“Neural Machine Translation by Jointly Learning to Align and Translate”（Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, 2015）——神经机器翻译的经典论文，实际训练中常采用梯度裁剪来提升稳定性。